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摘 要 : 针对 资源 受 限 条 件 下 目标 识别 任务 ,提出 了 一 种 基于 轻 量 化 深度 网 络 的 目标 识别 方法 。 通 过 优化 卷 积 操作 、 
模型 参数 压缩 、 增 强 特征 表达 深度 等 网 络 结构 的 优化 方法 ， 设 计 并 实现 了 针对 岁入 式 平台 应 用 的 轻 量化 网 络 模型 结 
构 ， 使 得 深度 网 络 模型 在 保证 精度 的 条 件 下 ， 实 现 了 模型 参数 和 运行 所 需 资源 的 大 幅 缩 减 。 实 验 表明 ， 提 出 的 轻 量 
化 深度 模型 较 ILSVRC-15 冠军 提出 的 基础 模型 ResNet, 能 够 实现 在 ImageNet-67 数据 集 上 ， 网络 模型 压缩 为 基础 模 
型 10.2% 的 条 件 下 仍 保持 93.5% 的 目标 识别 准确 率 。 
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Object recognition method based on lightweight depth network 


Li Yahui, Liu Jun 
(Fundamental Science on Communication nformation Transmission & Fusion Technology Laboratory, Hangzhou Dianzi 
University, Hangzhou 310018, China) 


Abstract: Aiming at the task of object recognition under resource constrained condition, this paper proposed a method of 
object recognition based on light weight depth network. By optimizing the design method of the network structure such as 
convolution operation, model parameter compression and enhancement of feature expression depth, this paper designed and 
implemented the lightweight network model structure named Se-DResNet for embedded platform. So that the depth network 
model can reduce the parameters of the model and the resources needed for operation under the condition of guaranteeing 
the precision. The experimental results show that the lightweight depth model has better performance than that of the basic 
model proposed by ILSVRC-15 champion ResNet, and it can achieve the model accuracy of 93.5% under the condition that 
the model with 10x fewer parameters on IMAGENET-67 data set. 
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(intelligent of terminal，IoT) 在 人 们 的 生活 中 发 挥 着 越 来 越 


0 ”引证 重要 的 作用 ， 同 时 也 为 智能 感知 、 万 物 互联 的 智能 化 时 代 迎 

军事 领域 中 自动 目标 识别 (automatic target recognition， 来 了 新 的 契机 ， 也 为 硬件 资源 、 数 据 量 强 依赖 的 深度 学 习 方 
AIR ) 作为 战场 环境 感知 领域 的 重要 环节 ， 是 一 种 利用 各 种 ”法 提供 了 基础 支撑 。 深 度 学 习 ， 由 于 其 强大 的 特征 提取 和 表 
传感器 ， 从 客观 世界 获取 目标 /背景 信号 ， 并 使 用 计算 机 信息 ”达能 力 ， 使 得 深度 学 习 在 目标 检测 、 语 音 识 别 、 自 然 语言 处 


处 理 方法 自动 地 分 析 场 景 信号 、 检 测 、 识 别 感 兴趣 的 目标 及 ”” 理 等 领域 中 发 挥 着 越 来 越 重要 的 作用 。 传 统 的 计算 机 视觉 任 
获取 目标 各 种 定性 、 定 量 性 质 的 军事 目标 识别 方法 。 作 为 光 务 通 常 采 用 特定 领域 专家 设计 的 针对 特定 目标 类 别 的 特征 ， 
谱 信 息 领域 关键 技术 的 图 像 目 标 类 别 检测 技术 ， 其 通过 从 原 其 过 程 具 有 特征 设计 的 复杂 性 和 低 效 性 ， 难 以 实现 在 其 他 领 
始 的 图 像 中 提取 目标 的 特征 并 以 此 为 基础 完成 目标 的 识别 任 ，” 域 中 得 以 较 好 地 使 用 。 而 深度 学 习 采 用 在 权 值 欠 代 更 新 过 程 
务 ， 也 是 计算 机 视觉 中 低层 视觉 处 理 的 关键 问题 。 图 像 目 标 ”中 实现 对 图 像 空 间 域 信息 的 提取 和 表达 ， 从 而 能 够 实现 自动 
类 别 检测 技术 又 称 类 别 级 目标 检测 或 目标 检测 ， 旨 在 利用 图 。 提取 出 目标 特征 ， 省 去 了 传统 目标 识别 算法 所 使 用 的 特征 需 
像 处 理 与 模式 识别 等 领域 的 理论 和 方法 ， 检 测 出 图 像 中 存在 “要 领域 专家 针对 特定 类 别 进行 抽象 特征 设计 的 繁杂 工作 。 特 
的 目标 对 象 ， 确 定 这 些 目标 对 象 的 语义 类 别 ， 并 使 用 边界 框 。” 别 是 迁移 学 习 的 出 现 使 得 计算 机 视觉 任务 的 设计 者 可 以 不 过 
标定 出 目标 对 象 在 图 像 中 的 位 置 趾 ,图像 目标 类 别 检测 是 度 关 注 特 征 结构 设计 这 一 繁杂 过 程 ， 这 也 使 得 深度 网 络 可 以 
标 分 类 的 一 个 子 问 题 , 目标 分 类 可 以 分 为 三 个 层级 : 图 像 级 ， ”实现 在 不 同 领 域 之 间 快 速 地 迁移 ， 而 不 需要 重新 设计 网 络 模 
即 确定 图 像 中 是 否 有 相关 的 目标 对 象 ， 如 图 像 分 类 、 图 像 注 ”型 结构 。 
释 技 术 ; 区 域 级 , 即 确定 图 像 中 某 个 区 域 是 否 含有 某 个 类 别 ， 然而 深度 学 习 算法 的 使 用 也 对 硬件 的 计算 能 力 和 样本 数 
即 本 文 所 述 的 图 像 目 标 类 别 检测 ， 像 素 级 ， 即 确定 图 像 中 各 ”” 据 的 数量 和 质量 提出 了 更 高 的 要 求 。 深 度 网 络 模型 ， 由 于 其 
个 像素 归属 于 哪 类 目标 对 象 。 像 素 级 也 可 以 细 分 为 类 别 级 目 内 部 庞大 的 参数 量 和 多 级 的 非 线 性 映射 ， 使 得 模型 具有 良好 
标 分 割 和 语义 分 割 两 类 。 在 此 ， 本 文 只 关注 在 第 一 层级 ， 也 ”的 特征 提取 和 表达 能 力 。 此 外 ， 由 于 特征 提取 过 程 采 用 基于 
即 是 图 像 级 目标 识别 任务 的 研究 。 样本 集 的 迭代 学 习 过 程 来 完成 ， 所 以 该 过 程 需要 满足 硬件 计 
随 着 物 联网 、 大 数据 的 飞速 发 展 ， 智 能 终端 设备 。 算 能 力 和 样本 集 的 体 量 两 大 要 求 。 而 这 两 者 也 正 是 深度 学 习 
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秆 代 能 够 1 
的 网 络 模型 中 


再 次 复苏 的 两 个 重要 
于 存在 大 量 的 可 学 习 参 数 ， 
型 需要 大 量 的 样本 数据 ， 从 而 保证 网 络 模型 
于 其 密集 的 计算 和 存储 使 得 模型 的 应 用 范围 受到 


日 
了 严重 的 制约 , 使 得 其 较 多 地 应 用 在 服务 器 等 高 性 能 集群 上 。 


， 等 : 一 种 基于 轻 量 级 深度 网 络 的 目标 识别 方法 


忆 素 


使 得 模 


然而 令 人 欣喜 尼 
现 ， 深 度 网 络 虽 然 


有 较 好 的 泛 化 


究 者 在 近 几 年 的 研究 中 发 
经 元 以 实现 复杂 的 非 线 性 映 


射 的 拟 合 能 力 ，1 


于 结构 设计 等 区 


素 的 存在 ， 使 得 网 络 
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实现 了 模型 参数 和 计算 量 的 大 幅度 缩减 。 参 数量 的 缩减 随 之 
带 来 的 就 是 硬件 要 求 的 降低 ， 这 也 使 得 深度 网 络 模型 能 够 逐 
渐 在 实际 的 工业 环境 中 得 以 实现 大 规模 的 应 用 。 


分 类 网 络 目标 识别 准确 率 与 模型 大 小 对 比 


模型 中 中 存在 大 


和 和 


中 无 人 机 等 硬件 资源 受 限 条 


量 的 见 余 参数 ， 而 删除 这 些 参 数 并 不 会 对 原 
有 网 络 模型 的 性 能 产生 较 大 的 影响 。 因 此 本 文 针对 军事 领域 


牛 下 深度 网 络 的 轻 量化 网 
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在 实际 的 地 业 应 用 环境 中 尤其 是 IoT 设备 ， 硬 件 资源 的 
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图 1 轻 量化 目标 识别 网 络 整体 结构 


Fig.1 Structure of lightweight object recognition network 


络 模型 设计 进行 了 三 


基于 经 


九 ， 


的 残 差 网 络 模型 结构 


ResNet 进行 了 针对 卷 积 优化 、 参 数 压缩 和 增强 特征 表达 等 方 


为 原 有 
1 ”相关 工作 


而 的 优化 操作 ， 实 现 了 在 ImageNet-67 
10.2% 的 条 件 下 仍 保持 93.5% 的 


数据 集 上 ， 模 型 压缩 
目标 识别 精度 。 


传统 的 计算 机 视觉 任务 采用 经 典 的 数字 图 像 处 理 的 方式 


进行 
特征 的 提取 ， 并 通 
SVM ) 等 分 类 器 完 
设计 需要 特定 领域 


域 的 算 子 设计 并 不 


， 通 过 设计 相关 特征 提取 算 子 从 而 


实现 图 像 中 特定 目标 


过 支持 向 量 机 (support vector machine， 


成 目标 识别 任务 。1 


通过 特征 提取 算 子 的 


的 专家 知识 作为 支撑 。 同 时 ， 


针对 特定 领 


能 方便 地 在 其 他 领域 进行 应 用 ， 


传统 的 计算 机 视觉 任务 发 展 较为 缓慢 。 


2012 年 以 AlexNet 为 首 的 五 


域 开辟 了 新 的 道路 


中 。 在 此 之 后 ZF、 


这 也 使 得 


层 深 度 网 络 为 计算 机 视觉 领 


， 同 时 初步 展现 出 了 深度 网 络 强大 的 性 能 


VGG、GoogleNet、 


ResNet、DenseNet， 


以 及 各 种 优化 网 络 模型 被 提出 ， 网 络 模型 的 性 能 也 在 逐步 提 


升 。 各 模型 性 能 对 


比如 图 


的 提升 ， 深 度 模型 


到 如 今 的 大 规模 高 性 能 服务 集群 ， 


2 所 示 9-19。 然 而 ， 随 着 模型 性 能 


训练 所 需 的 硬件 资源 从 最 初 的 普通 计算 机 


样本 数据 集 也 从 


CIFAIR-10、CIFAIR-100 到 如 今 的 InageNet-lk 以 及 Open 


Images, 图 片 数 据 量 也 


最 初 的 60 000 


幅 之 多 。 如 此 大 规 


到 如 今 的 1 900 000 


计算 和 存储 能 力 都 较 大 规模 计算 机 群 存在 巨大 的 差距 。 表 1 
统计 了 目前 较为 常见 的 硬件 设备 的 计算 能 力 数 据 。 


表 1 常见 显卡 指标 数据 
Table 1 Common graphics card data 
显卡 名 称 显存 /G 处 理 能 力 /Tflops 
GeForce GTX 1080 8 8.2 
GeForce GTX 1080 Ti 11 10.6 
Nvidia TITAN X 12 10.2 
Nvidia TITAN Xp 12 10.8 
GeForce GTX TITAN 12 4.5 
K80 GOU Accelerator 12 5.6~8.8 
Jetson Tegra Kl1 2 0.326 


从 表 中 可 以 看 出 ， 常 规 的 IoT 设备 通常 的 计算 能 力 仅 为 
大 规模 服务 集群 使 用 的 TITAN Xp 计算 硬件 的 3%, 并 且 存 储 
能 力 仅 为 16.7%， 如 此 严峻 资源 受 限 条 件 也 对 于 复杂 深度 网 
络 的 应 用 提出 了 更 高 的 要 求 ， 也 使 得 针对 深度 网 络 模型 优化 
的 研究 更 为 迫切 。 因 此 ， 如 何 更 好 地 实现 针对 嵌入 式 等 硬件 
资源 受 限 条 件 下 深度 网 络 的 应 用 的 问题 的 研究 便 显 得 尤为 重 
要 。 
2 ”算法 总 体 框架 


深度 网 络 通常 采用 减少 模型 的 参数 量 和 单个 参数 存储 空 
间 以 此 优化 网 络 模 型 的 深度 网 络 压 缩 来 解决 。 然 而 简单 地 通 
过 删除 网 络 模型 的 结构 参数 而 不 进行 结构 的 调整 优化 ， 将 会 


模 的 密集 计算 使 得 深度 模型 难以 实现 在 硬 


件 资源 受 限 条 件 下 


进行 有 效 的 部 署 ， 因 


者 开始 转向 深度 网 


从 而 减少 模型 训练 
2016 年 , MIT 


络 模型 压缩 这 一 新 的 领域 ， 旨 在 保证 模型 
性 能 的 条 件 下 使 得 模型 的 参数 量 和 计算 量 实现 大 规模 缩减 ， 

和 部 署 所 需 的 样本 数据 量 和 硬件 资源 。 
博士 生 韩 松 通过 对 深度 网 络 结构 进行 深入 


研究 之 后 提出 J 
络 压缩 方法 ， 实 现 
大 小 压缩 为 原 有 的 
者 开始 针对 网 络 模 
较为 著名 的 


种 基于 裁剪、 


而 有 越 来 越 多 的 研究 


导致 模型 的 性 能 产生 大 幅度 下 降 ， 从 而 影响 网 络 模型 的 实际 
使 用 。 本 文 关注 的 目标 识别 方法 为 第 一 个 层级 ， 也 即 图 像 级 


量化 和 霍 夫 曼 编码 的 深度 网 


了 模型 性 能 与 AlexNet 相同 的 条 件 下 模型 

1/510。 并 由 此 引起 了 世界 各 地 的 下 
型 结构 优化 的 网 络 压 缩 方 法 的 五 
MobileNet 、ShuffleNet 以 及 Google 


MobileNet 基础 上 进行 优化 后 提出 的 MobileNet v2 等 针对 内 


入 式 等 硬件 资源 受 
模型 从 深度 网 络 结 
络 模型 中 神经 元 之 


限 条 件 下 的 轻 量化 网 络 结构 外 。 这 些 网 络 


究 学 
究 ， 其 中 
针对 


目标 识别 问题 。 通 过 借鉴 历年 ILSVRC 竞赛 中 冠军 网 络 模型 
的 思想 ， 并 结合 租 入 式 应 用 的 需求 设计 了 基于 模块 化 的 
Se-DResNet 网 络 模型 模型 总 体 结构 ， 如 图 1 所 示 。 

本 文 提 出 的 深度 网 络 模 型 结构 在 设计 中 采用 模块 化 设计 
方式 ， 通 过 将 各 个 模块 按照 拓扑 结构 进行 有 序 的 连接 ， 最 终 
形成 模型 的 整体 结构 。Se-DResNet 模块 结构 如 图 3 所 示 。 其 
中 左 图 为 模块 输入 和 输出 特征 图 维度 相同 ， 而 右 图 为 将 输入 
特征 图 维度 进行 缩减 时 使 用 。 
从 模块 结构 示意 图 中 可 以 看 出 ， 在 上 一 级 模块 或 者 数据 
读 取 层 输出 到 本 层 模 块 时 ， 首 先 将 原 有 特征 通道 分 为 两 个 相 
同 的 分 支 。 其 中 一 个 分 支 使 用 shortcut connection 思想 , 将 其 


构 的 设计 角度 进行 石 


人 


究 ， 通 过 优化 深度 网 


间 的 连接 方式 ， 在 保证 模型 性 能 的 前 提 下 


直接 作为 模块 输出 的 前 有 一 层 f(x)， 而 另 一 个 分 支 则 采用 
bottleneck 思想 首先 将 特征 通道 进行 压缩 ， 其 中 压缩 比例 wj 


录用 定稿 
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可 以 根据 实际 情况 进行 设 定 。 
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1X1GConv 1X1GConv 

了 
1X1GConv 1X1GConv 
了 了 
Sigmoid Sigmoid 


Channel Weighting 


Channel Weighting 


图 3 Se-DResNet 网 络 模块 结构 示意 柜 
Fig.3 Diagram of module structure of Se-DResNet 


在 bottleneck 输出 后 将 总 的 特征 通道 的 数量 按照 w， 比 


例 系 数 进 行 通道 切 分 ， 其 分 别 通过 不 同 尺 度 的 卷 积 核 进 行 郑 


积 特征 提取 操作 ， 在 此 使 用 1x1 3x3 尺寸 的 卷 积 核 以 此 来 实 


现 不 同 特征 通道 之 间 感 受 野 的 不 同 ， 从 而 提升 小 网 络 的 特征 


= 


表达 能 力 。 并 在 输出 不 同 卷 积 核 输 出 的 特征 图 进行 拼接 操作 ， 
使 其 变 为 一 个 完整 的 特征 通道 , 在 此 之 后 通道 lx1 的 卷 积 操 
作 实 现 不 同感 受 野 特征 通道 之 间 的 特征 融合 。 

于 深度 网 络 存在 较 大 的 元 余 特 征 ， 在 1x1 卷 积 输出 后 
不 同 特征 通道 的 特征 质量 也 不 尽 相 同 ， 所 以 在 此 采用 基于 特 
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国 


XIV 


na 


[1 


ch 


征 通道 加 过 
换 为 一 个 实数 数值 ， 以 此 来 衡量 特征 通道 的 质量 优 劣 ， 并 将 


[en [ou 


将 单个 卷 积 通道 变 


权 思 想 的 卷 积 操作 流程 ， 其 通 
通 


太 


该 实数 值 作为 通道 权 值 进行 各 通道 特征 之 间 的 加 权 操作 ， 输 
出 特征 图 六 (9 。 最 终 将 f(x) 和 fi.() 通过 残 差 网 络 思想 将 其 


进行 特 得 


和 
= 
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逐 点 卷 积 计算 量 两 部 分 。 


所 示 。 


其 中 所 需 计算 量 为 计算 公式 如 式 (3) 


Cra=D:xD.xMxD,xD:+MxNxD,xD;, (3) 


全 9- 犁 


<—M——> 
Depthwise Convolutional Filters 


np 


Vl 


! < 一 N 一 > 


Pointwise Convolutional Filters 


图 4 深度 可 


分 离 卷 积 示 意图 


Fig.4 Diagram of depth separable convolution 


通过 将 标 # 


对 卷 积 和 深度 可 分 离 卷 积 进行 比较 可 以 发 现 ， 


深度 可 分 离 卷 积 在 模型 计算 量 的 减少 方面 ， 较 原始 标准 卷 积 
减少 比例 计算 公式 如 式 (4) 所 示 。 


Crv = 


D.xD.xMxD,xD, +MxNxD:xD, 1 1 
= 


Cys D. xD. xM xNxD,xD, ND (0 


在 深度 网 络 


Fh 1x1 卷 积 承载 着 多 特征 通道 之 间 的 信息 融 


合 ， 但 是 


模型 的 参数 量 较 少 ， 实 际 的 计算 


文 借鉴 分 组 


E 逐 点 相 加 最 终 输 出 该 模块 处 理 后 的 特征 信息 到 下 一 


特征 提取 模块 或 者 模型 的 分 类 器 实现 样本 目标 类 别 的 识别 。 


该 模型 结构 基于 ResNet 网 络 本 文 主要 针对 优化 卷 积 
作 、 模 型 参数 压缩 和 增强 特征 表达 三 个 方面 进行 改进 ， 下 
将 对 每 个 改进 方法 进行 详细 的 阐述 。 
2.1 优化 卷 积 操作 


本 洪 


标 


对 的 卷 积 操作 是 将 输入 层 的 特征 通道 与 卷 积 核 进行 计 


受 限 的 条 人 


网 络 在 运行 过 程 中 所 使 资 
的 设计 要 求 相 违背 ， 也 会 导致 模型 的 实时 性 能 


现 


于 点 卷 积 操作 同样 是 采用 遍历 的 方式 进行 ， 虽 然 


量 却 仍然 较为 庞大 ， 所 以 本 


卷 积 的 思想 ， 将 网 络 中 1xl 的 卷 积 操作 全 部 使 用 
组 卷 积 实现 。 但 是 本 文 并 没有 在 组 卷 积 之 后 使 用 通道 混 排 操 
作 ， 其 原因 有 以 下 两 点 
a) 由 于 


F 在 前 三 次 组 卷 积 操作 的 过 程 中 使 用 的 通道 数 不 
相同 ， 在 通道 数量 不 同 的 情况 下 分 组 卷 积 操作 本 身 就 自 带 有 
通道 重 排 的 操作 ， 所 以 不 会 
b) 使 用 通道 混 排 操作 : 


竹 会 增加 网 络 的 计算 量 , 同时 增加 
的 内 存 空间 ， 这 对 于 原本 硬件 资 


2.2 ”模型 参数 压缩 
为 了 增加 


元 


网 络 中 各 层 感 受 野 的 丰富 程度 ， 同 时 有 效 降 低 
模型 的 参数 量 ， 在 此 使 用 


法 。 目 先 通过 


ottleneck 思想 的 模型 压缩 方 


组 卷 积 的 方式 将 输入 1xl 点 卷 积 和 3x3 可 分 离 


算 处 理 后 加 和 输出 结果 ， 作 为 下 一 层 的 特征 输入 。 标 准 卷 积 
公式 如 式 〈1) 所 示 。 


其 中 : w 为 卷 积 核 ，f 为 特征 图 


g(rtsyr) (1) 


使 ) 


标准 的 卷 积 计算 虽然 能 够 完成 图 像 特 征 的 提取 ， 但 


是 由 于 标准 卷 积 核 的 计算 需要 根据 输入 通道 和 输出 通道 来 决 


定 卷 积 核 的 数量 ， 所 以 三 者 之 间 存 在 着 较 强 的 耦合 性 。 如 果 


仅仅 从 输入 或 者 输出 通道 角度 进行 优化 ， 由 于 其 耦合 关系 的 
存在 难以 实现 较 好 的 效果 ， 所 以 在 此 使 用 深度 可 分 离 卷 积 对 
卷 积 操作 进行 优化 ， 其 通过 将 标准 的 卷 积 操作 划分 为 


Depthwise 和 Pointwise 两 个 部 分 进行 。 其 流程 示意 图 如 图 4 


所 示 。 


在 标准 的 卷 积 操作 中 ， 假 设 输入 的 特征 图 的 尺寸 为 


MxD,xD, ， 其 中 : MM 为 输入 特征 图 的 数量 ，D 为 输入 特征 
图 的 尺寸 。 输 出 特征 图 的 尺寸 为 NxDjxD; ， 其 中 : WN 为 输出 


特征 图 的 数量 ，D; 为 输出 特征 图 的 尺寸 , 则 标准 卷 积 操作 所 


需 的 计算 量 为 计算 公式 如 式 〈2) 所 示 。 


Ci,=D, xD.: xMxNxD,xD, (2) 


而 通过 深度 可 分 离 卷 积 操作 之 后 ， 输 入 和 输出 特征 图 的 


尺寸 均 相 


目 同 的 情况 下 ， 其 计算 量 可 以 分 为 深度 卷 积 计算 量 和 


卷 积 的 特征 


通道 数量 进行 压缩 ， 


压缩 比例 使 用 w 来 控制 ， 然 


中 可 以 根据 


择 。 其 示意 图 如 图 5 所 示 。 
squeeze ”一 ~ 
一 本 


使 用 来 进行 控制 。 
的 需求 对 wr 两 个 参数 进行 选 


后 根据 实际 的 应 用 需要 设 定 输入 1xl 和 3x3 可 分 离 卷 积 的 特 
征 通道 的 数量 ， 两 者 的 比例 
精度 和 实际 硬 从 


1 


在 实际 应 用 


pe 


人 


5 模型 参数 压缩 方法 示意 


吧 


Fig.5 Diagram of model parameter compression method 

2.3 ”增强 特征 表达 
感受 野 的 丰富 能 够 提升 模型 的 性 能 ， 究 其 原因 是 由 于 感 
受 野 的 丰富 为 模型 提取 特征 的 质 


量 提 供 了 保障 ， 然 而 如 果 将 


优质 的 特 生 


一 个 方法 。 


E 进 行 充分 的 利用 能 否 


进一步 提升 网 络 的 性 能 是 另 


针对 嵌入 式 应 用 设计 


的 网 络 其 特点 是 模型 的 参数 


录用 定稿 


能 的 主要 原因 。 攻 


的 问题 ， 


量 和 模型 运行 所 需 的 硬件 要 求 都 比 
也 往往 有 一 个 问题 存在 ， 那 就 是 模 
这 也 导致 模型 的 性 能 并 不 如 服务 器 集群 上 部 署 的 网 络 结构 性 


李 亚 逻 ， 等 : 


一 种 基于 轻 量 级 深度 网 络 的 目标 识别 方法 


较 低 ， 但 是 这 种 网 络 结构 
型 的 特征 表达 能 力 不 足 ， 


此 本 文 针对 轻 量化 网 络 特征 表达 能 力 较 弱 


采用 SeNet 中 提出 的 基于 通道 加 权 上 


络 模型 对 特 和 和 


E 的 表达 能 力 ， 其 原理 


从 示意 图 中 可 


如 图 6 所 示 。 


的 思想 来 提升 网 


以 看 出 ， 该 方法 


并 不 是 基于 空间 给 


度 来 进 


通道 之 间 的 
异 通 道 之 间 


行 模型 结构 的 优化 ， 如 Inception 等 , 而 是 从 特征 
关系 角度 来 进行 模型 结构 的 优化 ， 通 过 显 式 地 建 模 通 
的 相互 依赖 关系 ， 自 适应 地 重新 校准 通道 的 特征 响应 。 
| 
v7,() -\ x 
as (s) 作 
i 
WwW 
.8 
图 6 ”通道 加 权 示 意 区 


Fig.6 Diagram of 


channel weighting 


二 具体 来 说 ， 其 采用 将 原始 特征 通道 首先 经 过 全 局 池 化 操 
品 作 转 变 为 1xlxc ， 然 后 使 用 非 线性 激活 函数 得 出 每 个 通道 权 
=- 。 重 的 比例 值 ， 最 后 通过 将 该 比例 值 映射 到 原 有 特征 通道 的 每 
加 一 个 特征 值 上 得 到 最 终 的 特征 输出 。 输 出 的 特征 图 由 于 是 直 
@ 于 每 个 特征 图 对 应 的 系数 加 权 之 后 的 结果 ， 所 以 在 一 定 程度 
@ 上 起 到 了 自动 特征 差异 化 处 理 的 过 程 ， 有 利于 目标 关键 特征 
二 一 ”的 提取 。 

© 2.4 重 塑 损失 函数 

O) 于 数据 集 制 作 以 及 数据 预 处 理 阶段 ， 各 类 别 样本 数量 
以 及 单 类 别 中 难 分 易 分 样本 的 不 同等 问题 ， 使 得 输入 分 类 器 
SS 的 样本 可 能 存在 样本 比例 失衡 的 问题 。 

证 当 某 一 类 别 在 数据 集中 存在 较 多 时 分 类 器 往往 能 够 针对 
会 ”该 类 别 获得 比较 好 的 性 能 ， 但 传统 的 交叉 粒 损 失 函数 在 模型 
> 训练 的 过 程 中 针对 已 经 能 够 较 好 识别 的 类 别 并 没有 进行 区 
(5 分， 使 得 分 类 器 在 训练 的 过 程 中 重复 性 地 对 已 经 获得 较 好 的 
人 识别 性 能 的 样本 仍然 进行 着 学 习 ， 这 也 使 得 分 类 器 难以 专注 
- 己 。 于 难以 识别 样本 的 学 习 ， 这 将 增加 模型 的 训练 时 间 。 因 此 本 
( 〇 ”文采 用 基于 难 识别 样本 挖掘 思想 的 RetinaNet 中 提出 的 焦点 


损失 函数 作为 识别 网 络 训练 
络 预测 输出 的 每 个 村 
重 。 焦 点 损失 函数 表达 式 如 式 〈5) 所 示 。 


se 


贡献 率 ;， 当 =0 时 便 是 标 ; 
训练 过 程 中 预测 输 


中: (1-p,) 为 调制 系数 ， 用 于 控 


的 损失 函数 。 焦 点 损失 函 根据 网 
本 的 类 别 的 概率 值 作为 损失 函数 的 权 


FL(P)=-w%U- 记 log(P) (5) 
制 不 同样 本 对 损失 函数 的 
值 的 交叉 粒 损 失 函 数 ， 书 为 模型 在 

出 的 样本 类 别 的 概率 。 


3 ”实验 结果 与 分 析 


3.1 


实验 环境 简介 
本 文 实验 环境 分 为 网 络 训练 和 网 络 测试 两 个 部 分 。 其 中 
网 络 训练 部 分 是 基于 TITAN X 的 硬件 资源 平台 ， 使 


E5-2450@2.00 GHz CPU 主板 , 板 载 


境 为 基于 英 伟 达 Jetson TK1 为 硬件 


网 络 测试 前 


基础 平台 ,其 板 载 


j Xeon 


op 


内 存 16 GB; 软件 环境 为 
Ubuntu 14.04 系统 ，Caffe 深度 学 习 框架 。 


了 分 验 环 
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3.2 网络 模型 参数 设置 
在 上 述 提出 的 轻 量 化 深度 网 络 模块 的 基础 上 ， 在 实际 使 
用 中 可 以 根据 硬件 环境 的 不 同 ， 通 过 设置 w," 的 值 进行 模型 
参数 量 的 调整 ,在 此 使 用 w =1.0,w, =0.5 。 通 过 将 各 个 模块 进 
行 连接 ， 最 终 形 成 实验 所 需 的 网 络 模型 结构 。 模 型 结果 参数 
设置 详细 信息 如 表 2 所 示 。 其 中 MB 表示 Match_Block，DB 
表示 DRes_Block。 
整个 网 络 模型 采用 一 层 普 通 的 卷 积 层 之 后 直接 使 用 了 池 
化 操作 ， 用 于 实现 原始 图 像 的 模糊 化 突出 图 像 中 目标 的 轮廓 
信息 ; 之 后 使 用 四 组 “DB+MB ”的 结构 完成 在 前 一 层 特征 图 
的 基础 上 提取 更 为 高 层 的 语义 特征 信息 ;最 终 使 用 softmax 
分 类 器 完成 特征 的 分 类 ， 识 别 出 目 标的 类 别 信息 。 
表 2 轻 量化 模型 结构 参数 设置 (ImageNet) 
Table 2 Lightweight model structure parameter setting ( ImageNet ) 


层 名 称 输出 维度 卷 积 核 步 长 重复 次 数 
(layer) (output size) (kernel size) (stride) (repeat) 
Image 224 X224 一 一 = 
Convl 112x112 7 尖 7 之 1 
Pooll 57X57 3X3 2 1 
MBI1 57X57 3X3 1 1 
DB1 57X57 3X3 1 1 
MB2 29X29 3X3 和 2 1 
DB2 29X29 3X3 1 2 
MB3 15X15 3X3 2 1 
DB3 15X15 3X3 1 4 
MB4 8X8 3X3 D2 1 
DB4 8X8 3X3 1 2 
Pool2 1X1 一 global 1 
在 完成 模型 构建 的 基础 之 上 ， 需 要 使 用 合理 的 深度 网 络 


优化 算法 以 及 恰当 的 网 络 模型 训练 参数 对 上 述 的 网 络 模型 结 
构 进 行 优化 ， 从 而 实现 模型 中 神经 元 之 间 连 接 参 数 的 更 新 优 
化 。 模型 训练 的 参数 设置 如 表 3 所 示 。 在 此 使 用 SGD 优化 算 
法 作为 模型 优化 的 计算 方式 。 

表 3 ”模型 训练 的 参数 设置 


Table 3 Model training parameter setting 


名 称 参数 
基础 学 习 率 (base lr) 0.01 
优化 策略 (type) SGD 

学 习 率 改变 策略 (lr policy) multistep 

最 大 友 代 次 数 (max iter) 450 000 
学 习 率 变化 比例 (gamma) 0.1 


3.3 实验 结果 与 分 析 

为 了 较 快 验证 算法 的 可 行 性 以 及 考虑 到 实际 军事 目标 识 
别 应 用 的 针对 性 ， 本 文 针 对 ImageNet-lk 数据 集 进行 了 类 别 

I 减 ， 将 与 军事 目标 无 关 的 类 别 进行 删除 ， 最 终 只 保留 与 军 

事 目 标 相 关 的 Person、Boat 等 在 内 的 67 个 目标 类 别 数据 。 
为 了 保证 对 比 的 公平 性 ， 以 下 实验 结果 数据 均 是 基于 论 
集 进行 。 

本 文 主要 完 针对 以 下 实验 进行 了 对 比 工 作 : 

a) 原始 ResNet 模型 与 本 文 提出 的 Se-DResNet 模型 对 


比 。 


b) Se-DResNet 与 现 有 轻 量化 网 络 模型 MobileNet v1、 
MobileNet v2、ShuffleNet、ResNet-18 网 络 结构 进行 了 对 比 。 
首先 将 本 文 提出 的 Se-DResNet 网 络 模型 与 ResNet 进行 


内 存 ( 显 


存 ) 2 GB; 软件 环境 为 Jetson TK1 定制 版 的 Ubuntu 14.04， 
Caffe 深度 学 习 框 架 。 


了 对 比 ， 通 过 该 实验 数据 来 检验 本 文 提 出 的 深度 网 络 结构 与 
基础 网 络 模型 结构 的 性 能 的 差别 。 对 比 实验 数据 如 表 4 所 示 。 
其 中 @.5 表示 通道 裁剪 为 原 有 的 0.5 倍 ， 其 他 依 此 类 推 。 
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表 4 ImageNet-67 数据 集 上 模型 


李 亚 辉 ， 


等 : 一 种 基于 轻 量 级 深度 网 络 的 目标 识别 方法 


尺寸 vs 准确 率 


Table 4 Model size vs accuracy on ImageNet-67 data set 


表 5 
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各 种 轻 量化 网 络 模型 性 能 对 比 


Table 5 ”Performance comparison of various lightweight network 


模型 名 称 大 小 /MB 压缩 比 /% 准确 率 /% 误差 /% models 
ResNet-50 97.7 - 94.4 - 模型 名 称 模型 大 小 /MB ”准确 率 top1/% ”准确 率 top5/% 
Se-DResNet 10.1 10.3% 93.5 -0.9 ResNet-18 44.6MB 70.8 92.1 
ResNet-50@.5 64.3 65.8% 93.8 -0.6 ShuffleNet@1g3 7.3MB 69.9 90.1 
Se-DResNet@.5 A: 7.4% 92.3 -1.9 MobileNet 16.2MB 70.8 92.8 
ResNet-50@.25 16.3 16.7% 92.9 -1.5 MobileNet v2 14.2MB 71.6 93.6 
Se-DResNet@.25 1.7 1.7% 89.9 -4.5 Se-DResNet 10.1MB 71.4 93.5 


从 表 中 可 


网 络 模型 大 小 
0.9%， 在 进 


以 看 出 ， 在 不 进行 任何 模型 裁剪 的 条 件 下 ， 原 
始 的 Se-DResNet 网 络 模型 大 小 仅 为 10.1 MB , 约 为 ResNet-50 
的 1/10。 但 模型 的 性 能 与 ResNet 模型 仅 相 差 


标识 别 准 确 率 


原 有 结构 的 7.4% 
模型 大 小 的 条 件 下 , 仍 能 


较 原 始 ResNet 网 络 显存 占 月 

考虑 到 实际 
Se-DResNet 网 络 进 
是 否 能 够 在 不 同 硬件 资源 受 限 
可 以 看 出 , 但 当 模 型 裁剪 为 原 


步 压缩 的 条 件 下 ， 网 络 模型 能 够 实现 在 压缩 为 


o | 


的 条 件 下 ,也 即 是 比 Se-DResNet@.5 更 小 的 
实现 比 Se-DResNet@.5 高 0.5% 的 目 
j 整 个 模型 在 运行 阶段 所 需 的 显存 占用 也 存 


在 巨大 的 差别 ，Se-DResNet 网 络 模型 仅 需 要 使 


日 缩减 了 85%。 


j 533 MB， 


条 件 下 的 应 


腻 入 式 平台 应 用 的 需求 ， 本 文 针 对 原始 
行 了 基于 通道 的 深度 裁剪 , 以 此 检验 模型 


用 需求 。 从 表 5 中 


的 1.7% 时 模型 性 能 依然 能 


在 完成 模型 整体 性 能 对 比 的 基础 上 ， 本 文 又 针对 模型 的 
每 种 改进 进行 了 切割 实验 ， 以 此 来 验证 模型 设计 过 程 中 每 种 
改进 对 于 最 终 模型 性 能 的 影响 。 切 割 实验 数据 如 表 6 所 示 。 

从 表 中 可 以 看 出 ， 算 法 模型 仅 适 用 深度 可 分 离 卷 积 对 原 
始 卷 积 操作 进行 优化 的 情况 下 ， 由 于 深度 可 分 离 卷 积 采用 将 
标准 卷 积 拆 分 为 两 部 操作 的 方式 ， 虽 然 在 一 定 程度 上 减少 了 
模型 的 参数 和 计算 量 ， 但 是 随 之 带 来 的 是 模型 中 各 个 特征 通 
道 之 间 的 信息 交叉 关联 次 数 变 少 ， 所 以 导致 了 模型 性 能 较 原 
有 ResNet 模型 性 能 大 幅度 下 降 。 

表 6 切割 实验 对 分 类 网 络 模型 的 影响 


Table6 Influence of cutting test on performance of classification 


network model 


Se-DResNet(1.0X) 


得 到 有 效 地 保证 ， 并 且 能 够 实现 在 与 ShuffleNet 模型 相近 的 Depthwise convolution? V ~ ~ ~ ~ 
目标 识别 准确 率 ， 但 整个 模型 的 存储 空间 占用 仅 为 1.7 MB。 Squeeze expand? V YY YY 1 
， Se-DResNetsE A 人 tN Squeeze excitation? YY 
De Focal loss? V 
043[ Accuracy 86.5 87.3 88.4 89.3 91.8 93.5 
o8| 通过 加 入 Squeeze-expand 结构 ， 利 用 不 同 的 卷 积 核 尺寸 
本 所 产生 的 不 同 大 小 的 感受 野 来 增加 网 络 模 型 中 感受 野 尺寸 的 
丰富 程度 ， 从 而 使 模型 对 于 不 同 尺 寸 的 目标 能 够 有 效 识别 ， 
0 从 而 提升 网 络 的 性 能 。 实 验 结果 显示 ， 通 过 该 方法 的 加 入 ， 
osil | 模型 性 能 得 到 了 0.8% 的 提升 。 
感受 野 的 丰富 能 够 提升 模型 的 性 能 ， 究 其 原因 是 由 于 感 
| 受 野 的 丰富 为 模型 提取 特征 的 质量 提供 了 保障 ， 然 而 如 果 将 
03 优质 的 特征 进行 充分 的 利用 能 和 否 进一步 提升 网 络 的 性 能 是 另 
0 一 个 方法 。 因 此 ， 在 此 本 文 借鉴 SE 网 络 中 所 提出 的 基于 通 
MobileNet_v1| 道 加 权 思 想 的 Squeeze Excitation 网 络 结构 , 通过 该 结构 提升 
o 也 SmumeNet” | 小 模型 的 特征 表达 能 力 。 实 验 结果 表明 ， 通 过 该 结构 能 够 大 
0 | ee 幅 提升 小 模型 的 性 能 ， 使 得 小 模型 仍然 具有 较 强 的 特征 提取 
0 05 1 15 2 25 3 35 4 45 
lters X10 和 表达 能 力 。 
图 7 几 种 轻 量化 网 络 性 能 对 比 在 损失 函数 方面 ， 由 于 输入 分 类 器 的 样本 的 质量 将 直接 
Fig.7 Performance comparison of several lightweight networks 影响 分 类 器 的 训练 的 最 终 性 能 ， 在 大 量 的 数量 进行 网 络 的 训 
在 完成 与 ResNet 对 比 的 基础 上 , 本 文 又 针对 谍 入 式 应 用 练 过 程 中 存在 较 多 的 元 余 计算 的 情况 ， 例 如 ， 数 据 集中 的 某 
的 需求 , 与 ResNet-18、MobileNet v1、MobileNet v2、ShuffleNet 张 图 片 在 训练 过 程 中 已 经 能 够 将 其 以 较 高 的 置信 度 将 其 识别 
这 一 针对 舱 入 式 应 用 设计 的 网 络 模型 进行 了 对 比 ， 模 型 性 能 出 来 ， 然 而 由 于 网 络 不 具有 筛选 数据 集 的 功能 ， 所 以 导致 模 
对 比 曲线 如 图 7 所 示 。 型 重复 较 多 的 简单 样本 的 训练 ， 导 致 模型 不 能 够 针对 难 分 样 
从 曲线 可 以 看 出 , Se-DResNet 网 络 结构 在 模型 训练 的 初 ” 本 进行 专注 学 习 。 因 此 在 此 本 文 借用 RetinaNet 网 络 中 所 提 


Se-DResNet 网 络 结构 在 最 终 的 网 络 性 


较 高 的 收敛 速度 ， 


络 在 模型 训练 的 末 大 
几 


性 


期 具 能 优 于 其 他 现 有 的 针对 典 入 
式 应 用 设计 的 网 络 结构 。 在 模型 训练 的 末端 ， 四 种 轻 量 


化 模 


型 性 能 收敛 到 近似 相等 ， 但 仍 有 一 定 的 差别 ，ShuffleNet 网 


仍 具 有 较 大 的 性 能 波动 ， 


且 其 性 能 要 


氏 于 MobileNet v2 和 MobileNet v1 网 络 ， 而 本 文 提出 的 


出 的 焦点 损失 函数 作为 分 类 器 的 损失 函数 ， 通 过 算法 预测 的 
概率 值 动态 调整 损失 值得 权重 ， 从 而 能 够 保证 网 络 更 加 专注 
于 难 分 样本 的 学 习 ， 也 使 得 模型 的 最 终 性 能 得 以 提升 。 实 验 
结果 表明 ， 通 过 焦点 损失 函数 focal loss) ,模型 性 能 提升 了 
1.7%。 


能 上 实现 了 略 高 于 


MobileNet vl1, 近似 MobileNet v2 的 准确 率 , 相差 仅 为 0.1%， 


但 是 模型 的 大 小 和 收敛 速度 方 


面 却 明显 优 于 


型 。 详 细 的 模型 性 能 数据 信息 如 表 5 所 示 。 


其 他 几 种 网 络 模 


4 


设计 进行 了 深入 下 


结束 语 


本 文 针 对 嵌入 式 等 资源 受 限 条 们 


F 下 轻 量化 网 络 模型 结构 
究 , 并 在 此 基础 上 提出 了 Se-DResNet 轻 量 


录用 定稿 


化 网 络 结构 ， 针 对 设计 的 轻 量 化 网 络 结构 进行 了 实际 的 实验 
验证 和 分 析 。 实 验证 明 ， 该 轻 量化 网 络 结构 实现 了 在 保证 模 
型 准确 率 的 基础 上 大 幅度 缩减 模型 参数 ， 从 而 实现 模型 密集 
型 计算 的 计算 量 的 缩减 以 及 部 署 时 内 存 和 硬盘 存储 空间 的 占 
用 ， 使 得 嵌入 式 等 硬件 和 能 耗资 源 受 限 条 件 下 模型 能 够 实现 
有 效 部 署 。 但 本 文 提 出 的 轻 量化 网 络 结构 现 阶段 仅仅 是 针对 
图 像 分 类 任务 。 同 时 本 文 所 使 用 的 网 络 压缩 方法 仅仅 关注 在 
网 络 模型 结构 的 优化 方面 ， 对 于 权 值 量化 共享 以 及 编码 等 方 
式 并 未 涉及 ， 在 今后 的 研究 中 希望 通过 将 该 轻 量 化 网 络 结 构 
与 目标 检测 框架 进行 有 效 整合 ， 并 利用 除 结构 优化 之 外 的 深 
度 网 络 压缩 方法 ， 从 而 实现 在 藤 入 式 等 硬件 平台 的 目标 检测 
任务 ， 为 军事 领域 等 提供 有 效 的 侦查 手段 ， 扩 展 战场 领域 的 
感知 范围 ， 为 指挥 决策 提供 基础 支撑 。 
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